#dir Mateo
df_artist <- read.csv("data/df_artist_sin_duplicados.csv")
df_charts <- read.csv("data/df_charts_sin_duplicados.csv")
df_audio_features <- read.csv("data/audio_features_plano_sin_duplicados.csv")
nrow(df_charts)
nrow(df_audio_features)
features_categoricas <-c( 'explicit', 'key_name', 'mode_name',
"key_mode", "album_type")#,
#"artist_concat", "markets_concat")
features_continuas <- c('acousticness', 'danceability', 'duration_ms', 'energy',
'instrumentalness', 'liveness', 'loudness', 'speechiness',
'tempo', 'valence')
# features_categoricos <-c( explicit, disc_number,key_name, mode_name, key_mode, album_type)
# time_signature
summary(df_audio_features[,features_categoricas])
table(df_audio_features$album_type)
#observo que artistas y tipo de albunes son los que tienen muchos disc_number
unique(df_audio_features[df_audio_features$disc_number > 8,]$artist_name)
unique(df_audio_features[df_audio_features$disc_number > 10,]$album_type)
sort(table(df_audio_features[,"key_name"]), decreasing = T)
for(i in features_categoricos){
print(i)
barplot(sort(table(df_audio_features[,i]),decreasing = T), main = i, las=2)
# pie(table(df_features_categoricos[,i]))
}
Correlacion entre variables categóricas
tabla_key_album <- table(df_audio_features$key_name, df_audio_features$album_type)
cat("Tabla de contigencia entre key y album type\n")
tabla_key_album
chisq.test(tabla_key_mode)
Se observan valores altos del test chi cuadrado, por lo que se puede rechazar la H0 (variables categoricas independientes) y afirmar la dependencia de las variables
tabla_key_mode <- table(df_audio_features$explicit, df_audio_features$album_type)
cat("Tabla de contigencia entre key y album type\n")
tabla_key_mode
chisq.test(tabla_key_mode)
contar_market <- function(x){
q <- length(unlist(strsplit(x, split = ",")))
return (q)
}
df_audio_features$cant_markets <- sapply(df_audio_features[,"markets_concat"], contar_market)
summary(df_audio_features$cant_markets) #hay canciones en cero países. Están dadas de baja
x <- df_audio_features %>%
group_by(track_name, external_urls_spotify)
x$cant_markets <- sapply(x[,"markets_concat"], contar_market)
summary(x$cant_markets) #hay canciones en cero países. Están dadas de baja
Join Charts y Audio Features
Nueva key de artist para el JOIN
x <- df_audio_features %>%
group_by(track_name, external_urls_spotify) %>%
mutate(artist_new = paste(artist_name, collapse = ",|,")) %>%
ungroup() %>%
mutate(artist_key = sub(",|,.*", "", artist_new)) %>%
select(artist_name, artist_new, artist_key, everything(.)) %>%
distinct(artist_key, external_urls_spotify, .keep_all = T)
length(x[1,x$markets_concat])
join_audio_charts <- x %>%
select("artist_name","artist_new","artist_key",
"track_name", "external_urls_spotify",
features_continuas, features_categoricas) %>%
right_join( df_charts %>%
select( "Track_Name", "Artist",
"URL","Position", "Streams", "week_start", "week_end"),
by = c(
# "track_name" = "Track_Name",
"artist_key" ="Artist",
"external_urls_spotify" = "URL"))
###################
y <- join_audio_charts %>%
filter(grepl("d32M6", external_urls_spotify))# %>%
# distinct(Position, week_start)
glimpse(join_audio_charts)
nrow(df_audio_features)
nrow(x)
nrow(df_charts)
nrow(join_audio_charts)
sum(!complete.cases(df_audio_features))
sum(!complete.cases(join_audio_charts))
sum(complete.cases(join_audio_charts))
length(unique(join_audio_charts$artist_name))
# filter(grepl("d32M6", external_urls_spotify)) %>%
x
x %>% select(artist_key, artist_new,everything(.)) %>%
filter(grepl("|", artist_new))
join_audio_artist <- df_audio_features %>%
select("artist_name", "track_name", features_num, features_categoricos) %>%
right_join( df_charts %>%
select( "Track_Name", "Artist" ),
# "Position", "Streams", "week_start", "week_end"),
by = c("track_name" = "Track_Name", "artist_name" ="Artist" ))
join_audio_artist <- df_charts %>%
select( "Track_Name", "Artist", "URL", "Position", "Streams", "week_start", "week_end") %>%
# distinct() %>%
left_join( df_audio_features %>%
select("artist_name", "track_name", "external_urls_spotify", features_num, features_categoricos),
by = c( "URL"= "external_urls_spotify" ))
join_audio_artist
# glimpse(df_audio_features)
# glimpse(df_charts)
Analisis de NA’s de Audio Feature
sum(is.na(join_audio_artist))
sum(!complete.cases(join_audio_artist))
sum(is.na(df_audio_features))
sum(is.na(df_charts))
library(mice)
md.pattern(join_audio_artist, rotate.names = T)
library(VIM)
# Proporción de cada combinación
faltantes = summary(aggr(join_audio_artist, sortVar=TRUE, plot=F))
print(faltantes$combinations)
Patron Comun Canciones del Chart
#funcion nomaliza z score
scale_vble <- function(x){
(x - mean(x, na.rm = T))/sd(x, na.rm = T)
}
# Histograma con variables escaladas
join_audio_artist_complete <- na.omit(join_audio_artist)
join_audio_artist_complete_scale <- scale(join_audio_artist_complete %>% select(features_num) )
nrow(join_audio_artist_complete)
df_audio_features_complete <- na.omit(df_audio_features)
df_audio_features_complete_scale <- scale(df_audio_features_complete %>% select(features_num) )
nrow(df_audio_features_complete)
plot(density(join_audio_artist_complete_scale[,"danceability"]), main = "Histograma de danceabilty")
plot(density(df_audio_features_complete_scale[,"danceability"]), main = "Histograma de danceabilty")
lines(density(df_audio_features_complete_scale[,"danceability "]))
nrow(join_audio_artist_complete %>%
select(artist_name, track_name,features_num) %>%
distinct())
join_audio_artist_complete %>%
select(features_num) %>%
mutate_all(scale_vble) %>%
mutate(is_chart = "chart") %>%
rbind(df_audio_features_complete %>%
select(features_num) %>%
mutate_all(scale_vble) %>%
mutate(is_chart= "all")) %>%
gather(key = variable, value = valor, 1:10) %>%
# filter(!(variable %in% c("instrumentalness", "speechiness" )) ) %>%
filter(variable== "danceability" ) %>%
ggplot( aes(valor, fill = is_chart))+
geom_density(alpha = 0.2)#+
# facet_wrap(~variable, ncol=2)
for(i in features_num){
join_audio_artist_complete %>%
select(features_num) %>%
mutate_all(scale_vble) %>%
mutate(is_chart = "chart") %>%
rbind(df_audio_features_complete %>%
select(features_num) %>%
mutate_all(scale_vble) %>%
mutate(is_chart= "all")) %>%
gather(key = variable, value = valor, 1:10) %>%
# filter(!(variable %in% c("instrumentalness", "speechiness" )) ) %>%
filter(variable == i) %>%
ggplot( aes(valor, fill = is_chart))+
geom_density(alpha = 0.2)#+
# facet_wrap(~variable, ncol=2)
}
Atributos de audio a analizar
| acousticness |
Medida de confianza entre ceroo y 1 sobre si un tema es acústico (1 representa alta positibilidad de que sea acústico) |
Flotante |
| danceability |
Describe que tan adecuado es el tema para ser bailado, basado en una combinación de elementos musicales, como el tiempo, la estabilidad rítmica, la fuerza de los beats y la estabilidad general (valores entre 0 y 1, donde 0 implica poco bailable) |
Flotante |
| disc_number |
El número de disco (en general es 1, salvo que el album consista en más de un disco) |
Entero |
| duration_ms |
Duración del track en milisegundos |
Entero |
| energy |
Medida entre 0 y 1 que representa la percepción de intensidad y actividad en los temas. Usualmente, los temas energéticos suenan rápidos, fuertes y ruidoso (e.g. death metal tiene alta energía, mientras que los preludios de Bach puntuan bajo en la escala). Las características que contribuyen a este atributo son el rango dinámico (diferencia de energía (dB) entre el nivel de sonido más bajo y el más alto), el volumen o sonoridad percibida (métrica de intensidad), el timbre, la tasa aparición y la entropía. |
Float |
| explicit |
Detecta si un tema contiene lenguaje explícito (donde false es igual a “no se detecta presencia”) |
Booleano |
| instrumentalness |
Predice si un tema no contiene voces o cantos. Sonidos como “ooh” y “aah” son tratados como instrumentos en este contexto. El rap o palabras habladas en un tema son claramente voces. Los valores cercanos a 1 indican mayor probabilidad de que un tema no contenga voces en su contenido. Valores sobre 0.5 pueden interpretarse como temas más instrumentales, pero la confianza es mayor a medida que el valor se acerca a 1. |
Float |
| key |
El tono en el que está la canción. Se utiliza la notación standar Pitch Class para mapear los tonos en enteros. Por ejemplo: 0 = C, 1 = C♯/D♭, 2 = D, etc. Los nombres que estos enteros representan están en la variable key_name |
Categórica |
| mode |
Mdo en el cual está la canción, es decir, el tipo de escala de donde se deriva su contenido melódico. Los tonos mayores se represetan con 1 y los menores con 0. La variable mode_name describe el contenido de los valores (mayor o menor) y la variable key_mode sintetiza la información de key y mode |
Categórica (dummy) |
| liveness |
Detecta la presencia de audiencia en la grabación. Niveles más altos de la variable representan una probabilidad mayor de que el tema haya sido grabado en vivo. Un valor por sobre 0.8 provee una fuerte confianza de que el tema haya sido en vivo. |
Flotante |
| loudness |
Volumen general de una canción en decibles (dB). Los valores de la variable están promediados a lo largo de todo el tema y son útiles para comparar sus volumenes relativos. El volumen es una cualidad del sonido que esta principalmente correlacionada con la fuerza física (amplitud). Los valores oscilan en un rango entre -60 y 0 dB |
Flotante |
| speechines |
Detecta la presencia de palabras habladas en un tema. Mientras los temas posean una mayor porción de partes exclusivamente habladas (e.g. charlas, audio book, poemas) los valores estarán cerca de 1. Los valores sobre 0.66 describen temas que son probablemente hechos enteramente de palabras habladas; mientras uqe valores entre 0.33 y 0.66 describen temas que pueden contener tanto musica como habla, quizas en diferentes secciones o superpuestos (como en el rap); y valores menores a 0.33 son probablemente temas con sólo música u audios sin palabras habladas. |
Flotante |
| tempo |
El tiempo general estimado de un tema medido en beats por minuto (BPB). El tiempo es la velocidad o ritmo de una canción y se deriva directamente de la duración promedio de los beats |
Flotante |
| time_signature |
Estimación general del compás de una canción. El compás es una métrica convencional que especifica cuántos golpes/beats hay por unidad de tiempo dentro de una canción. |
Entero |
| valence |
Medida entre 0 y 1 que describe la “positividad musical” transmitida por una canción. Temas con altos valores suenan más positivos (e.g. felices, alegres, eufóricos), mientras temas con bajos valores suenan más negativos (e.g. tristes, depresivos, enojados) |
Flotante |
---
title: "features_categoricos"
output: html_notebook
---


```{r message=FALSE, warning=FALSE, include=FALSE}
library(ggplot2)
library(tidyverse)
library(readxl)
library(reshape)
library(reshape2)
library(mongolite)
```



```{r}
lyrics = mongo(collection = "lyrics", db = "spotify_dm" )
df_lyrics <- lyrics$find('{}')

write.csv(df_lyrics, "data/df_lyrics.csv")

df_lyrics <- read.csv("data/df_lyrics.csv")

```



```{r}
#dir Mateo
df_artist <- read.csv("data/df_artist_sin_duplicados.csv")

df_charts <- read.csv("data/df_charts_sin_duplicados.csv")

df_audio_features <- read.csv("data/audio_features_plano_sin_duplicados.csv")

nrow(df_charts)
nrow(df_audio_features)
```


```{r}
features_categoricas <-c( 'explicit', 'key_name', 'mode_name',
                          "key_mode", "album_type")#, 
                          #"artist_concat", "markets_concat")

features_continuas <- c('acousticness', 'danceability', 'duration_ms', 'energy', 
              'instrumentalness', 'liveness', 'loudness', 'speechiness',  
              'tempo', 'valence')
# features_categoricos <-c( explicit, disc_number,key_name, mode_name, key_mode, album_type)
# time_signature

summary(df_audio_features[,features_categoricas])

table(df_audio_features$album_type)
```

```{r}
#observo que artistas y tipo de albunes son los que tienen muchos disc_number
unique(df_audio_features[df_audio_features$disc_number > 8,]$artist_name)
unique(df_audio_features[df_audio_features$disc_number > 10,]$album_type)

sort(table(df_audio_features[,"key_name"]), decreasing = T)
```


```{r}

for(i in features_categoricos){
  print(i)
  barplot(sort(table(df_audio_features[,i]),decreasing = T), main = i, las=2)
  # pie(table(df_features_categoricos[,i]))
}


```


## Correlacion entre variables categóricas

```{r}
tabla_key_album <- table(df_audio_features$key_name, df_audio_features$album_type)
cat("Tabla de contigencia entre key y album type\n")
tabla_key_album
chisq.test(tabla_key_mode)

```
Se observan valores altos del test chi cuadrado, por lo que se puede rechazar la H0 (variables categoricas independientes) y afirmar la dependencia de las variables

```{r}
tabla_key_mode <- table(df_audio_features$explicit, df_audio_features$album_type)
cat("Tabla de contigencia entre key y album type\n")
tabla_key_mode
chisq.test(tabla_key_mode)

```

```{r}
contar_market <- function(x){
q <- length(unlist(strsplit(x, split = ",")))
return (q)
  }
df_audio_features$cant_markets <- sapply(df_audio_features[,"markets_concat"], contar_market)

summary(df_audio_features$cant_markets) #hay canciones en cero países. Están dadas de baja


```

```{r}
x <- df_audio_features %>% 
  group_by(track_name, external_urls_spotify)

x$cant_markets <- sapply(x[,"markets_concat"], contar_market)

summary(x$cant_markets) #hay canciones en cero países. Están dadas de baja



```


## Join Charts y Audio Features

### Nueva key de artist para el JOIN
```{r}
x <- df_audio_features %>% 
  group_by(track_name, external_urls_spotify) %>% 
  mutate(artist_new = paste(artist_name, collapse = ",|,")) %>%
  ungroup() %>% 
  mutate(artist_key = sub(",|,.*", "", artist_new)) %>% 
  select(artist_name, artist_new, artist_key, everything(.)) %>% 
  distinct(artist_key, external_urls_spotify, .keep_all = T)

length(x[1,x$markets_concat])
```


```{r}
join_audio_charts <- x %>% 
  select("artist_name","artist_new","artist_key",
         "track_name", "external_urls_spotify",
         features_continuas, features_categoricas) %>% 
  right_join( df_charts %>%
               select( "Track_Name", "Artist", 
                       "URL","Position", "Streams", "week_start", "week_end"),
               by = c(
                 # "track_name" = "Track_Name", 
                      "artist_key" ="Artist", 
                      "external_urls_spotify" = "URL"))
```



```{r}
###################
y <- join_audio_charts %>% 
    filter(grepl("d32M6", external_urls_spotify))# %>% 
  # distinct(Position, week_start)

```


```{r}
glimpse(join_audio_charts)

nrow(df_audio_features)
nrow(x)

nrow(df_charts)
nrow(join_audio_charts)

sum(!complete.cases(df_audio_features))
sum(!complete.cases(join_audio_charts))
sum(complete.cases(join_audio_charts))

length(unique(join_audio_charts$artist_name))

  # filter(grepl("d32M6", external_urls_spotify)) %>% 

```



```{r}
x

x %>% select(artist_key, artist_new,everything(.)) %>% 
  filter(grepl("|", artist_new))
```


############################
```{r}
join_audio_artist <- df_audio_features %>% 
  select("artist_name", "track_name", features_num, features_categoricos) %>% 
  right_join( df_charts %>%
               select( "Track_Name", "Artist" ), 
                      # "Position", "Streams", "week_start", "week_end"),
              by = c("track_name" = "Track_Name", "artist_name" ="Artist"  )) 

```

```{r}
join_audio_artist <- df_charts %>%
  select( "Track_Name", "Artist", "URL", "Position", "Streams", "week_start", "week_end") %>%  
  # distinct() %>%
  left_join( df_audio_features %>%
                select("artist_name", "track_name", "external_urls_spotify", features_num, features_categoricos), 
              by = c( "URL"= "external_urls_spotify"  )) 
join_audio_artist

# glimpse(df_audio_features)
# glimpse(df_charts)
```

## Analisis de NA's de Audio Feature
```{r}
sum(is.na(join_audio_artist))
sum(!complete.cases(join_audio_artist))

sum(is.na(df_audio_features))
sum(is.na(df_charts))
```

```{r}
library(mice)
md.pattern(join_audio_artist, rotate.names = T)
```


```{r}
library(VIM)
# Proporción de cada combinación
faltantes = summary(aggr(join_audio_artist, sortVar=TRUE, plot=F))
print(faltantes$combinations)
```


## Patron Comun Canciones del Chart

```{r}
#funcion nomaliza z score
scale_vble <- function(x){
  (x - mean(x, na.rm = T))/sd(x, na.rm = T)
}

# Histograma con variables escaladas 
join_audio_artist_complete <- na.omit(join_audio_artist)
join_audio_artist_complete_scale <- scale(join_audio_artist_complete %>% select(features_num) )
nrow(join_audio_artist_complete)

df_audio_features_complete <- na.omit(df_audio_features)
df_audio_features_complete_scale <- scale(df_audio_features_complete %>%  select(features_num) )
nrow(df_audio_features_complete)
  


plot(density(join_audio_artist_complete_scale[,"danceability"]), main = "Histograma de danceabilty")
plot(density(df_audio_features_complete_scale[,"danceability"]), main = "Histograma de danceabilty")
lines(density(df_audio_features_complete_scale[,"danceability "]))
```

```{r}
nrow(join_audio_artist_complete %>% 
  select(artist_name, track_name,features_num) %>% 
  distinct())

join_audio_artist_complete %>%
  select(features_num) %>% 
  mutate_all(scale_vble) %>% 
  mutate(is_chart = "chart") %>%
  rbind(df_audio_features_complete %>% 
          select(features_num) %>%
          mutate_all(scale_vble) %>%
          mutate(is_chart= "all")) %>%
  gather(key = variable, value = valor, 1:10) %>% 
  # filter(!(variable %in% c("instrumentalness", "speechiness" )) ) %>%
  filter(variable== "danceability" ) %>%
  ggplot( aes(valor, fill = is_chart))+ 
  geom_density(alpha = 0.2)#+
  # facet_wrap(~variable, ncol=2)
```


```{r}
for(i in features_num){
join_audio_artist_complete %>%
  select(features_num) %>% 
  mutate_all(scale_vble) %>% 
  mutate(is_chart = "chart") %>%
  rbind(df_audio_features_complete %>% 
          select(features_num) %>%
          mutate_all(scale_vble) %>%
          mutate(is_chart= "all")) %>%
  gather(key = variable, value = valor, 1:10) %>% 
  # filter(!(variable %in% c("instrumentalness", "speechiness" )) ) %>%
  filter(variable  == i) %>%
  ggplot( aes(valor, fill = is_chart))+ 
  geom_density(alpha = 0.2)#+
  # facet_wrap(~variable, ncol=2)
}  
```


## Atributos de audio a analizar

Feature | Descripción | Tipo
---- | ---- | ----
acousticness |Medida de confianza entre ceroo y 1 sobre si un tema es acústico (1 representa alta positibilidad de que sea acústico)|	Flotante
danceability |Describe que tan adecuado es el tema para ser bailado, basado en una combinación de elementos musicales, como el tiempo, la estabilidad rítmica, la fuerza de los beats y la estabilidad general (valores entre 0 y 1, donde 0 implica poco bailable)  | Flotante
disc_number | El número de disco (en general es 1, salvo que el album consista en más de un disco)  | Entero
duration_ms | Duración del track en milisegundos | Entero
energy | Medida entre 0 y 1 que representa la percepción de intensidad y actividad en los temas. Usualmente, los temas energéticos suenan rápidos, fuertes y ruidoso (e.g. death metal tiene alta energía, mientras que los preludios de Bach puntuan bajo en la escala). Las características que contribuyen a este atributo son el rango dinámico (diferencia de energía (dB) entre el nivel de sonido más bajo y el más alto), el volumen o sonoridad percibida (métrica de intensidad), el timbre, la tasa aparición y la entropía.| Float
explicit | Detecta si un tema contiene lenguaje explícito (donde false es igual a "no se detecta presencia") | Booleano
instrumentalness | Predice si un tema no contiene voces o cantos. Sonidos como “ooh” y “aah” son tratados como instrumentos en este contexto. El rap o palabras habladas en un tema son claramente voces. Los valores cercanos a 1 indican mayor probabilidad de que un tema no contenga voces en su contenido. Valores sobre 0.5 pueden interpretarse como temas más instrumentales, pero la confianza es mayor a medida que el valor se acerca a 1. | Float
key | El tono en el que está la canción. Se utiliza la notación standar Pitch Class para mapear los tonos en enteros. Por ejemplo: 0 = C, 1 = C♯/D♭, 2 = D, etc. Los nombres que estos enteros representan están en la variable key_name | Categórica
mode | Mdo en el cual está la canción, es decir, el tipo de escala de donde se deriva su contenido melódico. Los tonos mayores se represetan con 1 y los menores con 0. La variable mode_name describe el contenido de los valores (mayor o menor) y la variable key_mode sintetiza la información de key y mode | Categórica (dummy)
liveness | Detecta la presencia de audiencia en la grabación. Niveles más altos de la variable representan una probabilidad mayor de que el tema haya sido grabado en vivo. Un valor por sobre 0.8 provee una fuerte confianza de que el tema haya sido en vivo. | Flotante
loudness | Volumen general de una canción en decibles (dB). Los valores de la variable están promediados a lo largo de todo el tema y son útiles para comparar sus volumenes relativos. El volumen es una cualidad del sonido que esta principalmente correlacionada con la fuerza física (amplitud). Los valores oscilan en un rango entre -60 y 0 dB | Flotante
speechines | Detecta la presencia de palabras habladas en un tema. Mientras los temas posean una mayor porción de partes exclusivamente habladas (e.g. charlas, audio book, poemas) los valores estarán cerca de 1. Los valores sobre 0.66 describen temas que son probablemente hechos enteramente de palabras habladas; mientras uqe valores entre 0.33 y 0.66 describen temas que pueden contener tanto musica como habla, quizas en diferentes secciones o superpuestos (como en el rap); y valores menores a 0.33 son probablemente temas con sólo música u audios sin palabras habladas. | Flotante
tempo| El tiempo general estimado de un tema medido en beats por minuto (BPB). El tiempo es la velocidad o ritmo de una canción y se deriva directamente de la duración promedio de los beats| Flotante
time_signature| Estimación general del compás de una canción. El compás es una métrica convencional que especifica cuántos golpes/beats hay por unidad de tiempo dentro de una canción. | Entero
valence | Medida entre 0 y 1 que describe la "positividad musical" transmitida por una canción. Temas con altos valores suenan más positivos (e.g. felices, alegres, eufóricos), mientras temas con bajos valores suenan más negativos (e.g. tristes, depresivos, enojados) | Flotante
